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学 术 论 文 研究 腕 点 的 语言 


目 索 传 军 ” 于 果 侈 
中 国人 民 大 学 信息 资源 管理 学 院 北京 100872 


摘 要 : [目的 /意义 ] 论文 出 版 过 程 中 , 若 能 够 合理 有 效 地 呈现 出 一 篇 学 术 论文 的 核心 观点 ,不 仅 可 以 大 大 减少 科研 人 员 
在 查找 和 筛选 文献 上 花费 的 时 间 , 而 且 有 助 于 阅读 与 理解 。|[ 方法 “过程 ] 通过 标注 385 篇 XML 格式 期 刊 论文 , 构 
建 了 研究 语料库 ,再 利用 关键 词 分 析 法 对 亮点 的 语言 学 特征 进行 分 析 , 借 助 自 然 语言 处 理 算法 探索 亮点 的 分 布 特 
征 。[ 结果 /结论 ] 亮点 是 一 组 规范 的 、 语 义 明 确 的 短 多 的 集合 ,是 一 篇 学 术 论 文 与 其 他 论文 相 比较 的 新 观点 、 新 视 


布 情况 。 


二 
关中 
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人 六 


亮 
为 研究 创新 型 亮点 、 研 究 方 法 型 亮点 、 研 究 过 程 型 亮点 与 研究 结论 型 亮点 ,本 文 发 现 了 亮点 在 正文 和 各 章节 的 2 


; 学 术 论 文 。 研 究 亮点 ”亮点 价值 语言 学 特征 分 


人 
分 


入 s: G210.7 
Eqr 
一 一 一 


A 和 如何 科 学 有 效 地 呈现 一 篇 学 术 论文 的 核心 观点 ， 


促进 人 们 对 学 术 论 文 内 容 的 快速 了 解 , 节 省 人 们 发 现 


称 六 污 文 献 的 时 间 , 已 成 为 亟待 解决 的 问题 。 爱 思 叭 
尔 于 2010 年 正式 提出 学 术 论 文 研究 亮点 ( Research 
说 Miights) 。 其 认为 ,亮点 是 一 组 论文 的 核心 发 现 ,是 
由 歇 文 作者 在 投稿 时 自主 编写 提交 ,用 以 帮助 用 户 快 
速 子 解 论文 的 3 -5 个 要 点 上 。 但 关于 亮点 的 内 涵 和 
外 王 , 以 及 意义 和 特征 等 并 没有 说 明 ,学 术 界 和 出 版 界 
也 没有 形成 统一 认识 ,一 定 程度 上 影响 了 亮点 概念 和 
应 用 的 普及 ,影响 了 以 亮点 为 基础 的 论文 语 篇 语义 的 


等 技术 分 别 从 不 同 视 角 对 学 术 论 文中 的 新 发 现 和 重要 
结论 进行 了 识别 和 抽取 等 实践 探索 。 然 而 ,研究 亮点 ， 
既 不 同 于 创新 点 ,也 不 同 于 要 点 ,它们 之 间 既 存在 一 定 
联系 ,又 有 区 别 。 对 其 进行 研究 ,不 仅 有 利于 改善 编辑 
对 学 术 论 文 创新 性 的 判断 和 学 术 价 值 的 评价 ,更 有 利 
于 读者 发 现 和 获取 自己 所 需 的 论文 及 其 重要 内 容 。 因 
而 ,对 学 术 论文 亮点 的 研究 具有 重要 的 意义 和 价值 。 


2 亮点 自动 抽取 的 意义 与 价值 
2.1 ”亮点 自动 抽取 的 意义 

通常 ,一 篇 学 术 论文 的 意义 和 价值 ,只 有 阅读 之 后 
才能 够 判断 。 然 而 ,由 于 论文 数量 较 多 ,读者 没有 足够 
的 时 间 去 阅读 和 选择 ,往往 会 错失 一 些 较 有 价值 的 文 


通过 研究 发 现 , 关 于 亮点 的 研究 较 少 。 香 港 学 者 


献 。 多 年 来 ,知识 工程 领域 利用 计算 机 自然 语言 处 理 


P. Tse “指出 ,作为 研究 论文 的 伴随 内 容 , 如 亮点 ,可 
以 支撑 清晰 的 学 术 立 场 和 可 信 的 学 术 形 象 。 台 湾 作 者 
W. Yang” 通 过 对 240 篇 期 刊 论 文亮 点 的 语言 学 分 析 ， 
探究 了 亮点 的 评价 性 语言 与 交互 式 语 篇 的 特点 ,并 采 
用 问卷 法 调查 了 编辑 和 作者 对 亮点 的 看 法 。 相 对 于 亮 
点 而 言 , 国 内 外 学 者 对 学 术 论文 的 创新 点 等 内 容 的 研 
究 较 多 ,下 . Ronzano'’ Wl ba Dahl5 、B. Fisas'’ 、 温 有 
硅 " 毛 琛 瑜 " 等 学 者 借助 自然 语言 处 理 和 机 器 学 习 


技术 一 直 研究 ”自动 摘要 "的 编写 ,但 没有 取得 良好 的 
效果 。 为 此 , 爱 思 威 尔 提出 ,让 作者 标注 研究 亮点 , 希 
望 缓解 这 一 矛盾 。 事 实 上 ,人 工 标 注 研 究 亮点 ,准确 度 
较 高 ,但 成 本 高 ,效率 低 ,无 法 解决 海量 存量 论文 亮点 标 
注 的 需要 。 因 而 ,通过 对 亮点 的 语言 学 特征 ,及 其 在 论 
文中 分 布 规律 的 探寻 ,实现 对 论文 的 亮点 自动 识别 和 抽 
取 。 标 明 每 篇 论文 的 研究 亮点 , 既 可 以 节省 读者 的 时 
间 ,又 能 促进 其 快速 传播 ,具有 较 大 的 意义 和 价值 。 
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2.2 亮点 的 定义 

亮点 从 语义 内 容 看 ,属于 学 术 论文 ,从 表现 形式 
看 ,属于 文本 。 学 术 论 文 包含 有 摘要 正文、 参考 文献 
等 ,文本 包含 有 长 文本 与 短文 本 。 对 比 可 知 ,内 容 上 ， 
亮点 与 摘要 有 相似 之 处 ;形式 上 ,亮点 与 短文 本 相似 。 
亮点 与 摘要 相 比 ,更 加 新 绪 .简洁 ;亮点 与 短文 本 相 比 ， 
具有 更 加 简短 ,规范 和 语义 明确 等 特点 。 
通过 上 述 分 析 可 知 :亮点 是 一 组 规范 的 .语义 明确 
的 短 句 集合 。 包 含 着 五 方面 的 含义 :中 亮点 必须 符合 
语法 规范 , 且 语 义 完 整 ;@) 亮 点 在 表达 充分 的 基础 上 ， 
应 当 尽 可 能 简短 ;亮点 是 关于 学 术 论 文 某 一 方面 新 
颖 性 的 说 明 ;@@ 亮 点 表达 论文 的 重要 内 容 ,体现 一 篇 论 
文 的 独特 之 处 ;@@ 亮 点 可 以 让 读者 对 论文 创新 性 内 容 


有 一 个 概览 的 了 解 。 
2.9> 亮点 的 特点 


本 文通 过 对 论文 亮点 的 分 析 发 现 ,亮点 具有 新 颖 
明 性 , 易 读 性 “宣传 "性 (Promotional ) 等 特点 。 
加 (1) 亮点 内 容 的 新 颖 性 。 亮 点 是 一 篇 论文 新 观 
点 s 新 视角 .新 方法 新 思路 .新 结果 .新 结论 等 重要 内 
容 国 体现 ,因此 新 颖 性 是 亮点 最 为 基本 的 特点 。 具 体 
jj 届 , 亮 点 的 内 容 必 须 由 作者 独自 创作 完成 , 比 既 有 研 
究 左 果 更 加 新 颖 ,可 以 是 改进 和 修正 ,也 可 以 是 颠覆 与 
类 

三 (2 ) 亮 点 表达 的 简明 性 。 亮 点 前 置 于 摘要 呈现 给 
读 汉 ,其 简明 性 无 疑 是 关键 因素 。 爱 思 唯 尔 规定 每 条 
亮点 不 超过 85 个 字符 ,这 就 要 求 作者 需要 在 不 影响 读 
者 理解 的 前 提 下 ,使 用 尽 可 能 少 的 字符 将 论文 的 重要 
内 贤 充 分 表达 。 倘 若 亮 点 语言 不 够 精炼 ,字数 过 多 , 则 
导致 亮点 在 形式 上 无 异 于 摘要 ,并 且 可 能 会 给 读者 阅 
读 造成 障碍 。 

(3) 亮 点 对 读者 的 易 读 性 和 “宣传 "性 。 亮 点 可 以 
吸引 潜在 读者 阅读 全 文 ,因此 亮点 对 读者 具有 易 读 性 
和 “宣传 "性 。 易 读 性 主要 体现 在 亮点 表述 的 通俗 易 
浅 ,不同 于 对 公式 ,数据 的 冷冰冰 地 罗列 ,亮点 是 学 术 
观点 的 生动 表达 。 易 读 性 使 读者 在 阅读 亮点 时 不 需要 
对 该 课题 有 过 多 的 知识 背景 ,就 可 以 快速 掌握 该 论文 
的 核心 内 容 。 另 一 方面 ,大 量 使 用 “加 强 语 "(Intensifi- 
er) 是 学 术语 篇 中 宣传 论文 的 一 个 特征 ” ,作者 在 编写 
亮点 时 通常 使 用 副词 或 形容 词 等 “加 强 语 "来 强化 自 
己 的 观点 ,这 决定 了 亮点 的 “宣传 "性 。 

2.4 ”亮点 的 价值 


二 


文 核心 观点 的 宣传 。 亮 点 对 于 读者 . 审 稿 编辑 .期刊 出 
版 商 和 作者 均 有 重要 意义 。 具 体 表 现在 以 下 几 个 方 
面 : 

(1) 有 利于 更 高 效 地 进行 论文 审 稿 ,助力 学 术 监 
攻 。 亮 点 可 以 帮助 编辑 与 审 稿 专家 对 论文 的 学 术 价值 
进行 初步 的 判断 ,加 快 审 稿 速度 ,提高 评审 效率 。 周 于 
作者 核心 研究 观点 呈现 不 合理 .不 清晰 ,专家 对 论文 核 
心 观点 的 把 握 与 提取 成 为 审 稿 的 焦点 和 难点 。 
此 ,有 学 者 提出 若 由 作者 自身 明确 标注 出 论文 的 核心 
内 容 , 便 可 以 加 快 审 稿 编辑 对 来 稿 的 学 术 不 端 性 、 创 新 
性 和 价值 进行 初步 判断 。 

(2) 有 利于 提高 学 术 出 版 商 论文 的 吸引 力 ,拓展 
增值 效益 。“ 出 版 或 毁灭 "(Publish or Perish ) 的 学 说 发 
布 以 来 ,学 术 出 版 界 逐 渐 成 为 了 一 个 高 度 竞 争 的 领域 ， 
学 术 期 刊 出 版 商 们 争 相 努力 吸引 潜在 的 作者 并 扩大 它 
们 的 读者 群 。 亮 点 的 简明 与 便捷 使 之 成 为 提升 学 术 出 
版 商 欧 争 力 的 有 力 抓 手 ,此 外 ,亮点 还 可 以 吸引 潜在 的 
读者 购买 完整 的 访问 权限 ,创造 增值 效益 。 

(3) 有 利于 读者 对 论文 价值 的 判断 ,提高 阅读 效 
率 。 论 文 发 表 的 重要 目的 是 让 读者 学 习 、 借 鉴 和 利用 
创新 性 成 果 并 进行 知识 的 再 创造 … 。 不 过 ,要 了 解 一 
篇 论文 的 核心 观点 需要 阅读 大 量 文字 耗费 较 长 时 间 。 
亮点 无 疑 会 大 大 节省 读者 的 时 间 和 精力 ,并 提升 论文 
的 “感知 程度 ” ,因此 亮点 可 以 帮助 读者 加 快 论文 的 选 
择 。 

(4) 有 利于 论文 作者 宣传 自己 的 论文 ,传播 学 术 
观点 。 作 者 直接 呈现 研究 的 主要 发 现 、 观 点 和 成 果 , 有 
助 于 读者 选择 ,加 快 论文 的 传播 和 利用 ,提升 作者 在 学 
界 的 影响 力 。 


3 研究 语料库 建设 


3.1 数据 来 源 

本 文通 过 爱 思 唯 尔 ScienceDireet 电子 期 刊 数据 库 
获取 International Journal of Information Management 期 
刊 2016 年 至 2018 年 共 385 篇 全 文 数据 ,并 运用 Oxy- 
gen XML Editor 软件 ,依照 一 定 的 标注 规则 对 论文 进行 
标注 ,构成 本 研究 的 数据 来 源 。 
3.2 XML 文本 标记 规则 

根据 一 篇 完整 的 期 刊 论文 的 结构 特点 和 XML 可 
扩展 标记 语言 的 语法 特点 ,结合 本 研究 需要 ,创建 自 定 
义 标 记 规则 ( 见 表 1)。 甚 中 包含 题 录 信 息 、 亮 点 、 摘 


ba) 


一 篇 学 术 论 文 的 亮点 既 有 利于 编辑 对 稿件 价值 的 
判断 ,也 有 利于 读者 对 论文 的 选择 ,还 有 利于 作者 对 论 


要 ,关键 词 以 及 正文 等 内 容 , 可 以 实现 一 篇 学 术 论文 的 
完整 标记 。 
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表 1 文本 标记 规则 及 示例 


序号 类 别 标记 语言 示例 

1 爹 文 < publication > < publication > 
</publication > 

2 期 刊 名称 <journal > <joumal > International Journal of Information Management </journal > 

3 出 版 时 间 <time> <time > Volume 36, Issue 6, Part A, December 2016, Pages 1062 - 1074 </time > 

4 论文 题目 <title > < title > Information technology resource, knowledge management capability, and competitive advantage : The moder- 
ating role of resource commitment </title > 

3 作者 <author > <author > Hongyi Mao < /author > 
<author > Shan Liu </author > 

6 DOI 号 < doi > < doi > https://doi. org/10. 1016/j. ijinfomgt. 2016.07.001 </doi> 

7 亮点 < highlight > <highlight id = “1” > IT resources positively affect knowledge management capability (KMC). </highlight > 
< highlight id = “2” > Resource commitment positively influences KMC. </highlight > 

摘要 <abstract > <abstract > <! [CDATA[ ……... 

ee ]]> 


关键 词 


<keywords > 


正文 < section > 


04.90248v1 . 


人 SN 涪 明 :@ 作 者 ,关键 词 和 亮点 需要 逐条 标记 ,亮点 需要 编号 加 以 区 分 。@)”<! [CDATA[ ]] > "用 于 表示 特殊 符号 。(3) 从 引言 


标 沁 需要 加 上 “name” 和“ category” 两 个 


</abstract > 


< keywords > Information technology resource </keywords > 
<keywords > Knowledge management capability </keywords > 
< keywords > Resource commitment </keywords > 


<keywords > Resource-based view </keywords > 

< section name = " Introduction category = "introduction" > 
<! [CDATA[ …… 

js 


</section > 


- 始 的 正文 


属性 “name” 为 作者 表述 的 标题 名 称 ; category ”为 规范 名 称 。 例 如 ,语句 < section name =“ literature 


re 页 e 友 ”category =“background”> ,说 明 论 文 作 者 使 用 ”literature review” 表 达 文 中 的 这 部 分 内 容 , 而 在 本 研究 归纳 的 统一 标准 化 论文 结构 中 ,应 


该 潭 用 “background" 来 标注 
[1 J 


3 高 点 标记 规则 


<abstract><![CDATA[The design and utilization of Electronic Process 
Guides (EPGs) have been s ied in Software Engineering (SwE) since 


the 1990s. However, 


the empirical findings 


斧 党 点 的 标记 是 本 研究 的 一 个 关键 问题 。 本 文 根 据 
名 是 匹配 .短语 相关 内 容 相关 等 原则 找 出 每 个 亮点 在 
全 四 出 现 的 位 置 , 并 做 出 相应 标记 。 由 于 许多 亮点 在 
论文 中 并 不 以 原始 语言 出 现 ,换言之 ,亮点 是 作者 根据 
论文 中 具体 内 容 归纳 而 成 ,因此 简单 的 字句 匹配 并 不 
准确 ,需要 根据 内 容 逐 句 王 别 。 本 研究 采用 如 下 方法 
对 亮点 进行 标记 。 

(1) 首先 对 “highlight ”标签 元 素 添 加 编号 属性 
“highlight id =1 ,2 ,3.…… ”, 例 如 :语句 <highlight id = 
“1” > IT resources positively affect knowledge manage- 
ment capability ( KMC ). </highlight > 表示 第 一 条 亮 
点 “target 标签 用 于 对 应 某 条 亮点 ，match ”标签 表 
示 全 文中 的 “highlight” 语句 与 亮点 的 匹配 情况 。 标 记 
时 要 注意 全 文 标记 人 处 前 后 分 别 增加 “]] > ”和 ”<! 
[CDATA[ "两 个 符号 ( 见 图 1) ,其 意义 在 于 提前 结束 
段落 前 的 ” < ! [CDATAL ” ,否则 标记 符号 会 被 转译 成 
普通 字符 。 


(2) 其 次 , 若 一 个 句子 仅 与 某 条 亮点 的 一 部 分 内 


studies, and experiments on the beneficial 


utilization are Still lacking. Thus,| we suggest that furthe 
on the utilization of EPGs is requirkd. ]]><h + 

“part ">In this study, we are i 
the effects of using EPGs on objective metrics (learning score, time 


effort) and subjective metrics (perceived usefulness, ease of use, 


and value), by comparing three EPG designs (a simple PDF-based EPG, a 


normal HTML-based EPG, and a sophis EPG) with 
different blocks of experimental subjects (practitioner 

academicians, novices, and expeyts).</h><![CDATA[ To this end, we 
have conducted a controlled experimen i a sample ofjinternational 


participants in the domain of IT Service Management. We found that 


1 亮点 标记 示例 


容 相 匹配 ,或 者 多 个 句子 描述 一 条 亮点 , 则 “match” 标 
签 标记 为 "part”, 意 为 部 分 匹配 。 若 描述 了 “highlight” 
的 全 部 内 容 , 则 标记 为 "full”, 意 为 完全 匹配 。 

(3) 再 次 ,亮点 是 作者 的 概括 性 内 容 , 若 段落 中 大 
部 分 内 容 描述 一 条 亮点 , 则 整个 段落 都 应 标记 。 若 正 
文 某 个 段落 描述 了 一 条 亮点 ,该 段落 中 某 个 句子 S1 描 
述 男 外 一 条 亮点 ,为 了 避免 诺 套 ,该 段落 中 51 单独 标 
注 , 前 后 两 部 分 “match” 分 别 标 为 part”。 
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(4) 最 后 ,一 条 亮点 可 能 出 现在 文中 多 个 地 方 ,或 
者 文中 多 个 地 方 都 有 内 容 与 一 则 亮点 匹配 的 语句 、 段 
落 , 那 么 需要 将 其 全 部 标 出 ( 见 图 2)。 此 外 ,下 列 特殊 
情况 不 做 标记 :作为 问题 出 现 的 亮点 不 予 标记 ;作为 假 
设 出 现 的 亮点 不 予 标记 ; 若 亮 点 与 引用 句子 观点 一 致 ， 
引用 句子 不 予 标记 。 

Highlights 


Task-related features affect perceived usefulness. 

Mood-related features affect perceived enjoyment 
Fig. 2. Research model 
3.1. ]]》 h 


perceived enjoynentC/h> <![CDATA 


“full.full’”)Effects of TR and MR features on perceived usefulness and 


图 2 “一 对 多 ”亮点 标记 方法 


外 i NE 
4 > 亮点 的 语言 学 特征 分 析 


全 浊 本 论 文 研究 亮点 的 语言 学 特征 主要 体现 在 特征 
证 CS% 键 词 ) 和 常用 表达 方式 两 方面 。 因 而 ,本 文 的 研 
完 大 路 是 ,首先 ,进行 关键 词 分 析 , 并 根据 关键 词 词义 
对 之 点 分 类 ,然后 再 汇总 各 类 型 亮点 的 常用 表达 方式 。 
4《 关键 词 分 析 
CN 关键 词 分 析 法 作为 定性 分 析 的 一 种 形式 ,可 以 帮 
有 识别 给 定 学 术语 篇 中 词汇 的 重要 性 ,并 且 有 助 于 建 
导语 篇 中 一 般 意义 词语 的 搭配 和 合成 关系 的 清晰 理 
解 之 关键 词 是 指 与 参考 语料库 其 他 词 相 比 ,出 现 频率 
交 半 的 词 "”) 。 高 频 词 通常 可 以 分 成 “高 频 通用 词 " 和 
条 项 特征 词 " 两 类 。 高 频 通 用 词 是 语言 中 通用 的 高 
频 河 。 高 频 特征 词 是 反应 特定 内 容 特 点 和 风格 的 高 频 
词 CD 本 文 的 关键 词 即 为 文本 中 的 “高 频 特征 词 ”。 

除 此 之 外 ,亮点 中 高 频 特征 词 的 杜 选 和 分 析 至 关 
重要 。 表 示 过 程 的 动词 和 表示 物体 的 名 词 是 人 类 在 认 


知 世 界 中 划分 出 来 的 两 大 范畴 ”。 动 词 在 许多 语法 
理论 里 被 看 成 句子 结构 最 重要 的 成 分 ,动词 决定 句子 
的 基本 结构 ,也 是 句子 的 核心 ” ,而 其 中 言语 行为 动 
词 (Speech Act Verbs) 构 成 动词 词汇 的 一 个 重要 部 分 ， 
言语 行为 动词 对 领悟 人 与 人 、 人 与 事物 之 间 的 关系 非 
常 重要 。 

从 认 知 角度 看 ,言语 行为 动词 所 构成 的 句子 都 会 
涉及 两 个 参与 者 : 陈 事 者 与 客体 。 客 体 可 以 是 具体 的 
有 物 ,如 "Itold a thing” 句 中 的 “a thing”, 也 可 以 是 抽 
9 事物 ,例如 亮点 中 提出 的 某 一 观点 。 经 调查 发 现 ， 
在 亮点 句 中 的 陈 事 者 主要 是 论文 作者 或 论文 本 身 , 例 
如 “The study identifies the risk of BDT.”, 其 中 , “the 
study” 是 陈 事 者 ，the risk of BDT” 是 客体 ,而 言语 行为 
动词 “identify” 表示 了 两 点 的 核心 语义 一 一 “识别 出 ”。 
这 说 明了 言语 行为 动词 作为 关键 词 的 合理 性 。 概 括 地 
说 ,本 文 的 关键 词 是 指 文本 中 的 言语 行为 动词 。 

4.2 关键 词 词 频 统计 

本 研究 使 用 WordSmith Tools 的 关键 词 检索 程序 ， 
来 确定 亮点 文本 的 关键 词 以 及 它们 在 文本 中 的 位 置 。 
首先 使 用 WordList 工具 建立 两 个 单词 列表 ,一 个 是 根 
据 要 考察 的 文本 建立 的 亮点 文本 ,而 另 一 个 作为 参照 
的 单词 列表 ,是 根据 较 大 型 的 由 同类 文本 组 成 的 语 料 
库 建立 的 ,参照 单词 列表 将 为 比较 提供 背景 数据 。 

基于 关键 词 检索 程序 的 文本 内 容 分 析 ,总 共 选 出 
154 个 言语 行为 动词 用 于 进一步 研究 ,再 借助 Word- 
Smith Tools 中 的 协调 函数 显示 亮点 的 完整 条 目 ,从 而 
确认 亮点 为 有 效 亮 点 。 通 过 对 关键 词 词 频 的 归纳 和 统 
计 , 得 出 部 分 高 频 言语 行为 动词 关键 词 词 频 统计 表 , 如 
表 2 所 示 : 


Ill 


兴 
上 


表 2 高 频 关键 词 (言语 行为 动词 ) 词 频 统计 


序号 关键 词 频次 序号 关键 词 频次 序号 关键 词 频次 

1 affect 18 13 explain 10 26 focus on 4 
2 present 17 14 discuss 9 27 highlight 4 
3 use 17 15 have impact on 8 28 assess 3 
4 provide 14 16 show 六 29 evaluate 3 
5 be 14 17 suggest J 30 relate (to) 3 
6 examine 14 18 include 6 31 correlate 3 
7 identify 13 19 analyze 5 32 employ 3 
8 investigate 12 20 3 33 advance 3 
9 develop 11 21 compare 3 34 outline 3 
10 find 11 22 have effect on 5 35 mediate 3 
11 propose 11 23 associate 4 36 predict 3 
12 influence 10 24 through 4 37 help (to) 3 

25 demonstrate 4 38 introduce 3 
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4.3 亮点 的 分 类 


根据 已 统计 的 关键 词 含义 对 亮点 进 
过 时 态 . 语 态 或 形容 词 对 已 确定 的 亮点 分 类 进 
性 。 本 文 基于 亮点 的 表现 形式 和 亮点 
的 表达 内 容 两 个 视角 将 学 术 0 


具有 一 定 的 科学 


行 分 类 ,再 通 | 结论 


创新 型 亮点 、 研 究 方法 型 亮点 .研究 过 程 型 亮点 和 研究 
型 亮点 四 种 类 型 ,这 种 分 类 方法 具有 较 好 的 包容 
性 和 继承 性 。 在 表 3 中 列举 每 一 类 亮点 下 的 部 分 高 频 
关键 词 及 亮点 示例 : 


行 确认 ， 


表 3 亮点 分 类 及 示例 


亮点 类 型 特征 词 (高 频 ) 亮点 示例 
研究 创新 型 亮点 “动词 : develop explore, suggest devise， ® Developing the 上 -health synergy concept to enhance the relationship between IT-enabled resources 


202304.0024881 


chinaXB 


(1) 研 究 创 新 型 亮点 。 这 类 亮点 描述 了 研究 者 针 
对 研究 问题 的 新 观点 或 新 发 现 ， 


find ,propose , present argue ,advance , pro- 
vide 


名 词 :finding perspective 


动词 :use ,through ,employ ,utilize 
名 词 :method approaches ,Methodology 


动词 :compare introduce describe outline 
summarize review ,focus on highlight ,af- 
fect measure , discuss analyze ,explain ex- 
amine , evaluate pay attention to empha- 
size ,assess Investigate 

名 词 : description review, condition fac- 
tor，drivers analysis ，issue technique Ap- 


plication process 


动词 : Demonstrate, validate , identify En- 
hance, increase Improve, indicate Illus- 
trate ,define result in ,lead to induce , pre- 
dict will , determine associate ( with ) re- 
late (to ) ,address relevant(to) 


名 词 :result,trend ,explanation 


and hospital performance. 


We present a directory based framework for incentives management of mobile device resources in 


ad-hoc mobile cloud environment. 


Advancing our theoretical and practical understanding of E-health can be effectively integrated to 


the realization of E-health strategy. 


We propose a big data architecture to suit the internet of things in data-information and information- 


knowledge layers. 


The findings suggest that social presence is formed through machine interactivity, person interactiv- 


ity, and self-disclosure. 


® The comparative salience of restaurant attributes is explored by employing a conjoint analysis. 

® We use structuralism and functionalism paradigms to analyze the origins of big data applications. 

® We utilized voluntary customer reviews from the smart tourism system. 

® This paper presents the state of research and main trends in public service management through a 


bibliometric analysis. 


® We investigate the utilization of Facebook by local Korean governments for tourism development. 
® Weanalyze major challenges with big data and also discussed several opportunities. 


® We examine the correlation between firm’ s financial records and vulnerabilities. 


A total 110 studies reviewed to clarify social commerce concept using per-defined review protocol. 


We highlighted the research themes that have been addressed in previous studies. 
® Outlining a number of potential research issues in this field of study. 


® We provide a description of existing communication technologies used in smart cities. 


lt identifies scientific gaps that can promote and guide new studies on improving the existing theory 
or proposing innovative models. 
® Both perceived utilitarian and social value of a social shopping website lead to purchase intention. 


® Case studies and emerging technologies for big data problems are discussed. 


Financial records are significantly associated with the number of vulnerabilities. 


The results of the review highlighted the limitation and the gaps in the previous studies in three 
main aspects 


® We defined “IT productivity variance” and focused our effort on it in this paper. 


要 使 用 :“ 使 用 了 "利用 了 "”" “通过”"“ 方 法 ”和 “途径 ” 


与 既 有 成 果 有 显著 的 


等 关键 词 。 


不 同和 实质 性 进步 ,是 一 篇 论文 中 最 有 价值 的 内 容 。 (3) 研究 过 程 型 亮点 。 这 类 亮点 主要 描述 论文 研 


此 类 亮点 的 句子 主要 使 用 :提出 了 ”发 现 了 “设计 
了 ”改进 了 ”给 出 了 发现” 和 "观点 ”等 关键 词 。 


究 过 程 中 获得 的 成 果 , 这 些 成 果 虽 然 创 新 性 不 及 研究 
创新 型 亮点 中 描述 的 显著 创新 成 果 与 发 现 ,但 也 可 以 


创新 是 一 篇 论文 的 灵魂 ， 


因此 每 一 篇 具有 研究 成 果 


推动 既 有 研究 理论 的 改 


进 与 发 展 O 由 于 一 


篇 学 术 论文 


的 论文 都 应 该 存在 研究 创新 型 亮点 。 

(2) 研究 方法 型 亮点 。 这 类 亮点 是 对 作者 在 论 
ee etn 
要 介绍 。 人 研究 方法 对 于 解决 特定 问题 具有 一 定 的 新 颖 
性 和 创新 性 ,是 具体 实施 的 方法 ,因此 ,这 类 亮点 通常 
不 是 泛泛 地 描述 一 般 科 学 研究 方法 (如 观察 法 .实证 研 
究 法 .调查 问卷 法 .专家 访谈 法 等 ) 和 问题 解决 办 法 
(如 计量 法 ` 共 现 法 、 聚 类 法 等 )。 此 类 亮点 的 句子 主 


中 描述 研究 过 程 的 篇 幅 占 比 例 最 大 ,因此 研究 过 程 型 
亮点 的 数量 也 是 四 种 亮点 中 最 高 的 ,此 类 亮点 的 句子 
主要 使 用 :“ 比较 了 ”讨论 了 ”分析 了 ”评估 了 ”“ 概 
A eal 
(4) 研 究 结 机 顾名思义 ,这 类 亮点 是 对 
有 价值 的 研究 结论 进行 阐述 。 一 篇 学 术 论 文 的 基本 如 
ee ii 
了 某 些 研究 结论 ,因此 这 类 亮点 往往 是 对 研究 方法 型 
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亮点 和 研究 过 程 型 亮点 的 继承 和 总 结 。 此 类 亮点 的 名 
子 主要 使 用 ”实现 了 “阐述 了 ”定义 了 ”得 出 了 ” 


结论 只 是 陈述 研究 过 程 的 最 后 一 步 。 
此 外 ,基于 语 篇 语义 学 研究 视角 ,可 以 通过 时 态 、 


“提升 了 “加 强 了 ”说 明了 ”和 "导致 了 ”等 关键 词 。 
研究 结论 的 描述 不 一 定 具 有 突出 的 创新 型 ,得 出 研究 


语 态 或 形容 词 来 重新 确认 亮点 的 分 类 ,如 表 4 所 示 : 


表 4 基于 时 态 、 语 态 和 形容 词 的 亮点 示例 


时 态 (Tense) ® The phase lag index (PLI) was used to assess local and large-scale connectivity. (研究 方法 型 亮点 ) 
® Experts in a variety of taxa scored five dimensions of intelligence. (研究 结论 型 亮点 ) 
® Itis being increasingly used for adults with refractory epilepsy. (研究 过 程 型 亮点 ) 
® Increasing pulse voltage will increase particle reduction efficiency. (研究 过 程 型 亮点 ) 

语 态 ( Voice) ® miRNA microarray Was performed on cortical dysplasia and compared with normal. (研究 方法 型 亮点 ) 


三 


® We discuss the changes of balance-related variables during static standing. (研究 过 程 型 亮点 ) 


形容 词 (Adjectives/Adverbs ) 


There was a stronger link between human capital of common workers and labour productivity. (人 研究 结论 型 亮点 ) 


Of somatic comorbidities ，stroke showed the strongest association with epilepsy. (人 研究 结论 型 亮点 ) 


The algorithm is capable of optimising stochastic and uncertain problems. (人 研究 结论 型 亮点 ) 


Fribe optic technology is effective for measuring spinal curvature over large regions of the spine. (研究 过 程 型 亮点 ) 


全 
. 
. 
. 
e Restricting participation to the “directly affected”is far too narrow. (研究 过 程 型 亮点 ) 
. 
. 
. 


Clarifies discussion on slurs by introducing new distinctions and terminology.( 研究 过 程 型 亮点 ) 


We recommend detailed information for future designed protocol. (研究 结论 型 亮点 ) 


For some complicated and sensitive cases like nuclear energy, conducting a RSIA is necessary. (研究 结论 型 亮点 ) 


通过 以 上 亮点 的 语言 学 特征 分 析 , 基 本 确定 了 各 
型 亮点 的 常用 表达 方式 ,为 后 续 亮点 的 特征 项 抽取 
研究 打下 了 基础 ,例如 在 抽取 研究 方法 型 亮点 时 ,选取 
站 的 “use”“through”“method” 等 词 ; 在 抽取 研究 创新 
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型 齐 点 时 ,选取 “finding”“ perspective”“explore” 等 词 。 
之 点 在 论文 内 的 位 置 分 布 规律 分 析 


-一 亮点 的 分 布 特征 是 指 亮点 在 全 文 和 文章 各 部 分 中 
是 大 何 分 布 的。 每 类 学 术 论文 都 有 一 定 的 逻辑 结构 
其 下 不 同 部 分 的 亮点 往往 具有 不 同 的 动机 和 功能 。 因 
此 永 文 的 研究 思路 是 ,首先 分 析 学 术 论文 的 结构 ,然后 
依 劝 上 一 部 分 的 分 析 , 对 每 一 部 分 亮点 出 现 的 类 型 与 
数量 进行 统计 分 析 。 
5.1 论文 结构 分 析 

学 术 论文 普遍 采用 IMRAD 规范 结构 。 由 引言 ( 介 
绍 研究 背景 和 提出 研究 问题 ) .材料 与 方法 .结果 和 计 
论 四 部 分 构成 。 对 于 不 同 的 学 科 ,IMRAD 结构 存在 许 
多 变 体 ,例如 在 数据 驱动 型 学 科 中 ,“ 材 料 与 方法 " 相 
应 的 改 成 “数据 与 方法 "。 本 研究 需 
规范 结构 对 目标 期 刊 International Journal of Informa- 
tion Management 中 学 术 论 文 的 结构 进行 调查 统计 , 统 
一 本 研究 中 论文 采用 的 结构 规范 。 
5.1.1 全 文 的 章节 分 布 

调查 发 现 ,385 篇 期 刊 论文 中 ,四 至 六 节 式 论 文 共有 
264 篇 , 占 全 部 样本 的 近 七 成 。 其 中 ,出 现 最 多 的 是 五 节 
式 论文 的 结构 ,共有 110 篇 , 占 28.6% ;其 次 是 四 节 式 , 共 


> af 、 
结合 论文 普 


有 79 篇 , 占 20.5% ;然后 是 六 节 式 论文 , 共 75 篇 , 占 
19.5% ,其 他 结构 式 论文 合计 占 三 成 左右 ,而 且 其 中 还 
有 相当 一 部 分 论文 不 属于 完全 研究 型 论文 ( 见 图 3)。 
5.1.2 文章 各 部 分 的 标题 内 容 

研究 发 现 , 文 章 各 部 分 的 标题 内 容 呈 现 出 较 高 的 
多 样 性 。 由 于 在 一 篇 学 术 论 文中 普遍 存在 多 个 部 分 具 
有 相同 结构 功能 的 现象 ,因此 需要 对 各 部 分 标题 进行 
人 工 判断 ,甄别 .合并 和 归 类 ,最 终 形 成 一 个 相对 统一 
的 论文 结构 ,以 便 进一步 对 亮点 的 分 布 位 置 进行 解读 。 
根据 各 部 分 标题 的 频数 统计 情况 ,绘制 了 论文 各 部 分 
名 称 结构 图 ( 见 图 4) ,从 左 到 右 依 次 为 四 节 式 论文 .五 
节 式 论文 和 六 节 式 论文 ,按照 从 图 的 上 端 到 下 端的 次 
序 ,依次 呈现 论文 各 个 部 分 的 标题 ,各 部 分 由 白 线 划 
分 。 在 每 一 部 分 中 ,矩形 的 大 小 表示 标题 频数 的 高 低 ， 
并 按照 赤 橙 黄 绿 青 蓝 紫 的 顺序 从 多 到 少 依次 着 色 。 
s.1.3 统一 论文 结构 

由 于 期 刊 论文 结构 和 各 部 分 名 称 的 多 样 性 ,必须 
要 通过 总 结 归 纳 ,制定 一 个 相对 统一 的 论文 结构 ,可 以 
将 大 部 分 论文 内 容 垦 套 进去 。 因 此 需要 秉持 “化 繁 为 
简 ” 的 原则 ,根据 具体 情况 进行 归并 。 本 文通 过 分 析 确 
定 了 “Introduction ( 引言 ) -Research ( 研究 工作 ) -Meth- 
od/Methodology( 方 法 )-Results (人 研究 结果 )-Conclusion 
(研究 结论 )” 的 五 节 式 论文 结构 。 对 于 案例 分 析 、 综 
述 和 述评 等 其 他 结构 不 够 规范 的 文献 ,按照 三 段 式 结 
构 处 理 :Introduction-Research-Conclusion”, 将 中 间 论 
述 的 多 个 章节 的 分 主题 都 归 为 “研究 工作 ”。 


和 


109 


卷 第 9 期 2020 年 5 月 


论文 数量 /篇 


120 


9 节 式 论文 


Background 
& 


Context 


Analysis 


Conclusion 


本 文 使 用 Python 程序 对 语料库 进行 解析 ,在 Py- 
thon 解析 XML 的 常用 中 ,“xml. etree. Element- 
Tree ”模块 (简称 ET) ,具有 方便 友好 的 API, 且 代码 可 


、 速度 快 消耗 内 存 少 。 因 此 本 研究 中 选用 该 方 
进行 语料库 解析 。 下 面 以 读 取 文献 17 为 例 ,结合 音 
ee 代码 对 XML 文件 处 理 过 程 进行 介绍 ( 见 

表 5)。 
解析 文件 的 思路 是 将 xml 文件 的 内 容 看 作 一 个 树 


形 结构 , 它 是 由 一 层 一 层 节 点 分 散 组 成 的 ,例如 在 本 研 
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Research 
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六 节 式 论文 


Methods | Data 


Background | easie | 


ee om | 


Analyss 


Analysrs 


Relared 
Work 


Empirical 


ee 四 


| 


究 中 , 根 节点 为 “ SR "标签 ,第 一 节 子 节点 
分 别 为 ”< journal > ” 


39 6 


> 


99 66 


“<time> 


39 66 


<title > < author 


39 66 99 6 


< doi > <highlight > < abstract > ””< key- 


words > ”和 “< section > ”等 。“ < abstract > ”和 “ < sec- 
tion > ”的 第 二 节 子 节点 是 描述 亮点 与 论文 中 文字 匹配 
情况 的 ”<h > ”标签 ,所 以 要 得 到 或 操作 各 个 节点 的 
值 ,就 需要 依次 进行 遍历 操作 。 而 后 ,通过 获取 二 级 子 

节点 的 标签 ,属性 和 本 文 值 可 以 清楚 地 查看 亮点 地 匹 
配 情 况 和 具体 内 容 , 并 加 以 人 工 统 计 , 为 探索 亮点 的 位 


置 分 布 提供 了 有 力 的 数据 支持 。 
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表 5 XML 文本 处 理 示 例 


> > > import xml. etree. ElementTree as ET # 遍 历 文件 

> > > tree =ET. parse(r“C:;\Users\… 文 件 路 径 …. xml”) 

> > > print( tree) 

> > > print(type(tree) ) 

> > > root = tree. getroot( ) # 得 到 根 节点 

> > > rtag = root. tag # 根 节点 的 标签 

> > > print(rtag) 

publication 

> > > print( ‘root_tag: | | ’. format(root. tag) ) 

root_tag : publication 

> > > print( “root_attrib: | | ”. format( root. attrib ) ) 

root_attrib; | ‘marker’ ; “yu guoxin’ | 

> > > for i in root: # 饥 历 根 节点 ,得 一 级 子 节点 

> > > clag = iuag # 获 取 一 级 子 节点 的 标签 

= >>> print(ctag) 

> > > > print(type(ctag) ) 


urnal < class“str” > ;time <class“str” > ;title < class “str”> # 输 出 部 分 


ZE 


[es <class ‘str’ > ;doi <class ‘str’ > ;highlight < class “str” > 
Cabsuac < class“str”> ;keywords <class ‘str” > ;section <class “str” > 
图 


© > > > catt = i. attrib # 输 出 部 分 结果 
CD > > > print(catt) 

OO > > > print(type( catt) ) #dict 字典 组 成 的 键 值 对 
加 > > for j in i; # 人 遍历 二 级 子 标签 

> > > > jag = j ug # 葡 取 二 级 子 节 点 的 标签 
NZ > > print(jtag) 

C5 # 文 中 两 处 亮点 匹配 的 部 分 

CC > > > jatt = j. attrib # 获 取 二 级 子 节点 的 属性 


< i ，. ， ， 
: “Conclusions’ ,“category”:“conclusion ”| 


> > > print(jatt) 
CO eo: :“4”,， “match”:“full’ | # 与 第 四 条 亮点 完全 匹配 
> > > jtext = j. text # 获 取 二 级 子 节点 的 值 , 若 无 则 为 None 


> > >print(jtext) 


Finally, we outlined several open research challenges, which must be ad- 
dressed to improve the overall QoL, user perception, and acceptability of m-learn- 
ing environments. # 显 示 亮 点 内 容 

> > > for i in root. iter(“Item”) : # 查 询 某 种 所 有 类 型 的 标签 

> > > print(i. tag,i. attrib ,i.text) 

> > > print (root[0]. text) # 下 标 访问 各 个 标签 ,文本 

> > > print (root[1][1][0]. text) 


5.3 ”亮点 在 论文 内 的 位 置 分 布 规律 
5.3.1 亮点 在 正文 的 分 布 情况 

本 文 所 调查 的 385 篇 论文 共有 1 649 条 亮点 ,由 
于 存在 一 条 亮点 在 论文 中 匹配 多 次 的 情况 ,于 是 这 
些 亮 点 分 布 在 正文 四 千 多 处 ( 见 图 5)。 其 中 ,引言 
(Introduction ) 部 分 出 现 亮 点 602 次 ;研究 工作 (Re- 


search) 部 分 出 现 亮 点 325 次 ;研究 方法 (Method/ 
Methodology) 部 分 出 现 亮点 873 次 ;研究 结果 (Re- 
sult) 部 分 出 现 亮 点 1 472 次 ;研究 结论 ( Conclusion ) 
部 分 出 现 亮 点 810 次 。 


1 472 


800 
600 
400 
200 加 


第 一 部 分 “第 二 部 分 ”第 三 部 分 ”第 四 部 分 ”第 五 部 分 


亮点 数量 (个 ) 


5 ”亮点 正文 分 布 数量 


在 图 6 中 可 以 清晰 看 出 不 同类 型 的 亮点 在 正文 
中 的 分 布 特点 并 不 相同 。 四 引言 部 分 是 论文 的 概 
述 ,通常 会 用 简练 的 语言 描述 一 篇 论文 的 研究 问题 
解决 问题 的 方法 .重要 研究 成 果 以 及 研究 结论 等 , 因 
此 引言 部 分 文字 通常 会 匹配 全 部 类 型 的 亮点 。 四 和 研 
究 工 作 部 分 描述 研究 实施 过 程 ,因此 该 部 分 主要 包 
含 研 究 过 程 型 亮点 。 包 研究 方法 部 分 主要 描述 具体 
的 研究 方法 和 研究 方法 实施 的 过 程 ,因此 主要 包含 
研究 方法 型 亮点 与 研究 过 程 型 亮点 。 由 研究 结果 是 

一 篇 论文 的 核心 部 分 ,体现 一 篇 论文 的 创新 性 ,因此 
主要 包含 研究 创新 型 亮点 。 名 人 研究 结论 部 分 主要 包 
含 研 究 结论 型 亮点 ,同时 该 部 分 也 会 创新 性 的 对 既 
有 研究 理论 进行 升华 ,会 对 论文 中 的 部 分 研究 过 程 
进行 复述 ,因此 该 部 分 也 包含 研究 创新 型 亮点 和 研 
究 过 程 型 亮点 。 


图 6 各 类 型 亮点 正文 分 布 


5.3.2 亮点 在 各 部 分 内 的 分 布 情况 

除了 正文 中 的 分 布 情况 ,本 文 还 分 析 了 亮点 在 各 
部 分 的 分 布 规律 和 特点 。 比 如 ,亮点 倾向 于 出 现在 某 
一 部 分 的 开头 部 分 ,还 是 结尾 部 分 ,而 不 同位 置 的 亮点 
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又 意味 着 什么 。 

为 探索 亮点 在 各 部 分 内 部 的 分 布 特点 ,将 论文 的 
每 一 部 分 内 容 拆 分 为 前 部 、 中 部 和 后 部 。 调 查 发 现 ， 
在 各 部 分 的 内 部 ,亮点 位 置 的 分 布 是 随机 的 ,没有 在 
前 部 .中 部 和 后 部 显著 聚集 的 特点 。 唯 独 在 第 一 部 
分 “引言 "中 ,由 于 后 部 的 位 置 一 般 用 来 陈述 论文 的 
研究 目标 和 研究 路 径 , 所 以 亮点 出 现 的 次 数 较 少 , 且 
本 研究 将 人 研究 背景 和 相关 研究 综述 统一 归并 到 “ 引 
言 部 分 中 ,因此 ,在 “引言 "部 分 中 ,亮点 大 多 分 布 在 
前 部 和 中 部 。 


6 结论 


一 长 期 以 来 ,如 何 快速 高 效 地 发 现 学 术 论文 中 有 价 
值 的 内 容 片段 ,从 而 推动 知识 创新 的 速度 与 质量 ,~- 
是 田 书 情报 与 学 术 出 版 领域 的 科学 难题 。 目 前 
国 岗 外 学 者 主要 是 基于 文本 内 容 挖掘 视角 开展 了 -一 
些 配 完 ,例如 文献 18 .19 与 20 等 。 爱 思 唯 尔 亮点 的 
提出, 推动 了 这 项 研究 的 发 展 。 本 文 对 亮点 的 概念 
做 也 进一步 的 界定 ,并 对 其 语言 学 特征 和 在 论文 中 
的 和 时 分 布 规律 进行 了 分 析 , 研 究 结果 如 下 :GD 学 术 
座 纺 研究 亮点 是 一 组 规范 的 .语义 明确 的 短 句 集 合 。 
起 袜 新 颖 性 ,简明 性 . 易 读 性 … 宣 传 "性 的 显著 特点 。 
@ 尝 点 对 于 读者 , 审 稿 编辑 .期 刊 出 版 商 和 作者 均 有 
久 意 义 和 价 值 , 亮 点 有 利于 更 高 效 地 进行 论文 
稿 G 助 力学 术 监 审 ; 有 利于 提高 学 术 出 版 商 论文 的 吸 
引 态 ,拓展 增值 效益 ;有 利于 读者 对 论文 价值 的 判 
断 S 提 高 阅读 效率 ;有 利于 论文 作者 宣传 自己 的 论 
文 , 传 播 学 术 观点 。 国 亮点 可 以 分 为 研究 创新 型 亮 
点 .研究 方法 型 亮点 .研究 过 程 型 亮点 与 研究 结论 型 
亮点 。 轩 亮点 分 布 在 论文 的 各 个 部 分 , 主要 分 布 在 
研究 结果 部 分 与 研究 方法 部 分 ,在 各 章节 中 呈现 无 
序 的 随机 分 布 。 

最 后 ,由 于 语料库 的 原因 ,本 文 仅 选取 图 书 情报 领 
域 的 一 种 英文 期 刊 的 385 篇 论文 进行 了 语言 学 特征 和 
位 置 分 布 特征 分 析 , 其 结论 存在 一 定 的 局 限 性 。 后 续 
将 选择 更 多 学 科 与 期 刊 ,以 及 汉语 等 不 同 语言 的 学 术 
论文 来 丰富 语料库 ,完善 对 亮点 的 特征 分 析 的 进一步 
探索 。 从 而 为 制定 亮点 自动 抽取 规则 提供 更 加 科学 的 
依据 。 


型 
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Exploration of the Research “ Highlights” in Academic Papers 
Suo Chuanjun Yu Guoxin 
School of Information Resource Management, Renmin University of China 

Absiract: | Purpose/significance | In the process of publishing a paper, if the core viewpoint of an academic 
paper can be presented reasonably and effectively, it can not only greatly reduce the time spent by researchers in 
searching and screening literature, but also help to read and understand. | Method/process | By annotating 385 
journal papers in XML format, a research corpus was constructed, and then the linguistic characteristics of highlights 
were analyzed by keyword analysis method, and the distribution characteristics of highlights were explored by natural 
language processing algorithm. | Result/conclusion | The highlight of this paper is the collection of a set of norma- 
tive and clear-cut short sentences, which is the embodiment of new viewpoints, new perspectives, new methods, new 
ideas, new results and new conclusions in an academic paper compared with other papers. The highlights are novel, 
concise, readable and “propaganda”. In addition, this paper divides the highlights into research innovation high- 
sights, research methods highlights, research process highlights and research conclusion highlights, and finds the dis- 
车 bution of highlights in the text and chapters. 
吕 Keywords: highlights definition of highlight value of highlight linguistic characteristic distribution characteristic 
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人 我 刊 黑 名 单 。 自 2016 年 1 月 1 日 起 ,在 (知识 管理 论坛 》 上 发 表 论文 ,将 免 收 稿件 处 理 费 。 
3. 署名 与 版 权 问题 8. 关于 开放 获取 
作者 应 该 是 论文 的 创意 者 实践 者 或 扎 稿 者 , 即 论文 的 责任 者 与 著作 权 拥有 本 刊 发 表 的 所 有 研究 论文 ,其 出 版 版 本 的 PDF 均 须 通 过 本 刊 网 站 ( www. 
者 。 署 名 作者 的 人 数 和 顺序 由 作者 自 定 , 作 者 文责 自负 。 所 有 作者 要 对 所 提交 的 。 “kmf. ac. en) 在 发 表 后 立即 实施 开放 获取 ,鼓励 自 存储 ,基本 许可 方式 为 CC - 
稿件 进行 最 后 确认 。 BY( 署名) 。 详 情 参 阅 期 刊 首页 OA 声明 。 
论文 应 列 出 所 有 作者 的 姓名 ,对 研究 工作 做 出 贡献 但 不 符合 作者 要 求 的 人 9. 选 题 范围 
要 在 致谢 中 列 出 。 互联 网 与 知识 管理 .大 数据 与 知识 计算 ,数据 监护 与 知识 组 织 .实践 社区 与 
论文 同意 在 我 刊 发 表 , 以 编辑 部 收 到 作者 签字 的 “论文 版 权 转让 协议 "为 。 ”知识 运营 .内 容 管 理 与 知识 共享 .数据 关联 与 知识 图 谱 . 开 放 创新 与 知识 创造 、 
依据 。 数据 挖掘 与 知识 发 现 。 
依照 (著作 权 法 ) 规 定 ,论文 发 表 前 编辑 部 进行 文字 性 加 工 、 修 改 .删节 , 必 10， 关 于 数据 集 出 版 
要 时 可 以 进行 内 容 的 修改 ,如 作者 不 同意 论文 的 上 述 处 理 , 需 在 投稿 时 声明 。 为 方便 学 术 论文 数据 的 管理 共享 .存储 和 重用 ,近日 我 们 通过 中 国 科学 院 
我 刊 采用 知识 共享 署名 (CC BY) 协 议 ,允许 所 有 人 下 载 . 再 利用 ,复制 .改编 . 传 。 网 络 中 心 的 ScienceDB 平台 (www. sciencedb, en) 开通 数据 出 版 服务 ,该 平台 支 
播 所 发 表 的 文章 ,引用 时 请 注 明 作者 和 文章 出 处 (推荐 引用 格式 如 : 吴 庆 海 . 企业 知 。“ 持 任意 格式 的 数据 集 提交 ,欢迎 各 位 作者 在 投稿 的 同时 提交 与 论文 相关 的 数据 
识 茜 取 理论 与 实践 研究 [J/OL]， 知识 管理 论坛 , 2016, 1(4) : 243 -250[ 引 用 日 。 集 (稿件 提交 的 第 5 步 即 进入 提交 数据 集 流程 ) 。 


期 ]. http://www. kmf. ac. cen/ p/1/36/. ) 。 11. 投稿 途径 
4. 写作 规范 本 刊 唯一 投稿 途径 :登录 www. kmf. ac. cn ,点 击 作 者 投稿 系统 ,根据 提示 进 


本 刊 严格 执行 国家 有 关 标 准 和 规范 ,投稿 请 按 现 行 的 国家 标准 及 规范 撰 。” 行 操作 即 可 。 
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